首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关 在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算 智能 清华 中关 rlinf 北京中关 2025-09-01 16:09 1